专为MoE设计的“超级工厂”,来了
大模型催生了无数的创新机会,而大模型应用要如何更好地实现落地、服务好企业和个人,就成为广大开发者能否有效抓住这波时代红利的关键。
大模型催生了无数的创新机会,而大模型应用要如何更好地实现落地、服务好企业和个人,就成为广大开发者能否有效抓住这波时代红利的关键。
5月12日中美双方发布联合声明,决定大幅下降关税。紧随其后的5月14日,美国政府亮出了瞄准中国AI的“獠牙”,美国商务部工业与安全局(BIS)突然宣布,即日起在全球范围内禁用中国先进集成电路。
长城 moe 集群 云服务 cloudmatrix 2025-05-19 19:32 13
美国逆全球化的举动遭到了中方的强硬还击,双方就此展开了多轮的博弈。终于在5月11日,迎来了短暂的结局。中美达成关税休战协议,暂停部分加征关税,保留10%基准税率,并设置90天缓冲期。
华为 moe 云服务 黄瑾 cloudmatrix 2025-05-19 18:20 10
在人工智能与数据安全双重浪潮的推动下,DeepSeek大模型一体机作为国产化大模型落地的“黄金载体”,正以颠覆性姿态开辟全新市场赛道。这一技术产品并非渐进式创新,而是由数据主权觉醒、国产算力崛起、政策强驱动三大变量催生的爆发式机会点。其核心价值在于以“开箱即用
toe /təʊ/ 脚趾 toenail, tiptoe, toe-cap, toe-off, toe-holddoe /dəʊ/ 母鹿 doe-eyedfoe /fəʊ/ 敌人 arch-foewoe /wəʊ/ 悲哀;灾祸 woeful, woefully
另一个是MoE架构,中文名称是混合专家模型,相对应的概念是稠密(Dense)模型。如果说稠密模型一个“通才”,由一个“专家”处理多种不同的任务,MoE则是将任务分门别类,分给多个“专家”进行解决。
论文揭示了硬件与模型架构的深度耦合:采用FP8混合精度训练降低60%显存占用,结合多平面Fat-Tree网络拓扑将集群通信成本压缩至传统架构的40%,而专家并行(EP)与节点限制路由策略更让大规模MoE模型在2048块H800 GPU上实现高效训练。
5月16日,鲲鹏昇腾开发者大会2025(KADC2025)将于5月23-24日在北京举行。大会开幕前夕,活动媒体预沟通会举行,官方透露了大会将推出的一系列面向开发者的技术创新与支持计划。
关税刚刚达成初步协议,转头就加强科技管控。根据路透社报道,美国参议员上周五提出一项新法案,要求对出口受限的人工智能芯片实施位置验证机制,旨在阻止中国获得先进半导体技术。
5月14日,DeepSeek创始人梁文锋等人发表了一篇名为《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for Al Architectures》(深入了解
这篇论文深入分析了DeepSeek-V3/R1模型架构及其人工智能基础架构,重点介绍了一些关键创新,如提高内存效率的多头潜意识(MLA)、优化计算与通信权衡的专家混合(MoE)架构、释放硬件能力全部潜力的FP8混合精度训练,以及最大限度降低集群级网络开销的多平
论文 moe mla 文锋 reflections 2025-05-16 13:27 10
这篇论文深入分析了DeepSeek-V3/R1模型架构及其人工智能基础架构,重点介绍了一些关键创新,如提高内存效率的多头潜意识(MLA)、优化计算与通信权衡的专家混合(MoE)架构、释放硬件能力全部潜力的FP8混合精度训练,以及最大限度降低集群级网络开销的多平
论文 moe mla 文锋 reflections 2025-05-16 11:57 11
这篇 14 页的论文瞄向了「Scaling 挑战以及对 AI 架构所用硬件的思考」。从中你不仅能读到 DeepSeek 在开发和训练 V3 过程中发现的问题和积累的心得,还能收获他们为未来的硬件设计给出的思考和建议。这一次,DeepSeek CEO 梁文锋同样
这篇 14 页的论文瞄向了「Scaling 挑战以及对 AI 架构所用硬件的思考」。从中你不仅能读到 DeepSeek 在开发和训练 V3 过程中发现的问题和积累的心得,还能收获他们为未来的硬件设计给出的思考和建议。这一次,DeepSeek CEO 梁文锋同样
2025年4月29日,Qwen3系列模型开源,Qwen3-235B-A22B模型得分超过DeepSeek R1 671B 模型。但当时模型具体技术细节尚未透露,秘诀不得而知。
前段时间大热的DeepSeek-R1大模型,以其卓越的推理能力、采用强化学习训练、低成本高效能以及开源共享的特点,为用户提供了一个智能且经济高效的AI解决方案。其核心技术就是使用了混合专家模型MoE,专家混合模型MoE是一种通过多个子模型(专家)协作完成任务的
值得注意的是,Qwen3系列模型共包含8款不同尺寸,除了两个参数为30B和235B的MoE(混合专家系统)大模型外,阿里本次推出了6款Dense(稠密)模型,6个是稠密模型,参数从0.6B到32B不等。
4 月 29 日,阿里巴巴发布并开源了最新一代大语言模型Qwen3系列。本次开源了Qwen3-235B-A22B和Qwen3-30B-A3B两款 MoE 模型以及Qwen3-32B、14B、8B、4B、1.7B、0.6B多款密集模型。
本文提出了LLaVA-MoD,用于通过知识蒸馏从l-MLLM中高效训练s-MLLM。
6000+块昇腾NPU集群上完成了7180亿(718B)参数MoE模型的长期稳定训练,并通过多项突破性系统优化技术实现了显著性能提升。